Introdução

Ao analisar as licitações de merenda na Paraíba, faz-se necessário entender o comportamento dos licitantes como aqueles que participam da licitação apresentando uma proposta a Administração Pública. Para isso o objetivo inicial desse relatório é traçar o perfil desses licitantes através do agrupamento dos mesmos considerando características semelhantes entre membros de um grupo e distintas entre grupos.

Descrição da amostra

Na amostra foram analisados 758 licitantes que fizeram pelo menos uma proposta em licitações de merenda no estado da Paraíba entre os anos de 2011 e 2015.

A priori, consideraremos os seguintes critérios para o agrupamento:

  • Número de participações (Participou): Número de licitações nas quais o licitante fez proposta.

  • Total: Valor em reais da soma de todas as licitações nas quais o licitante fez proposta.

  • Mediana: Valor em reais da mediana das licitações nas quais o licitante fez proposta.

  • Municípios: Número de municípios distintos onde o licitante fez pelo menos uma proposta.

  • Razão entre participações e vitórias (Ganhou): Razão entre o número de participações e o número de vitórias(número de contratos do licitante com a Administração Pública).

  • Total ganho: Valor em reais da soma de todos os contratos nos quais o licitante faz parte.

  • Aditivos: Razão entre o número de aditivos que o licitante adicionou aos seus contratos e o número de vitórias (contratos) que ele obteve.

Foram aplicadas técnicas de transformação e padronização nos dados a fim de obter os melhores resultados e visualizações possíveis. Além disso, três diferentes métodos de agrupamento foram testados a fim de obter o melhor resultado.

Escolha do método

Utilizando o agrupamento hierárquico

O primeiro método analisado foi o algoritmo de agrupamento hierárquico, que procura construir uma hierarquia de grupos analisando a semelhança entre os elementos. Nesse caso, a hierarquia é dita aglomerativa pois começa de baixo para cima (bottom up), ou seja, cada observação começa sendo um grupo e os grupos começam a se juntar a medida que sobem na hierarquia.

Observamos abaixo o dendograma com a divisão dos grupos de licitantes. A divisão foi feita em 7 grupos visando obter um corte que não apresentasse tanta heterogeneidade entre membros de um mesmo grupo. Ou seja, elementos de um mesmo grupo devem ser parecidos entre si e elementos de grupos distintos devem ser diferentes entre si.

O gráfico abaixo apresenta a visualização da aplicação da técnica Silhouette que tem o objetivo de medir o quão parecidos são os componentes dentro de um grupo. O ideal é que todos os componentes tenham um valor Silhouette elevado, no entanto observa-se que alguns licitantes estão em grupos mas que possuem caratecrísticas diferentes do grupo. Uma das explicações seria que esses licitantes estão muito próximos a outros grupos, ou seja eles não se encaixam muito bem em nenhum dos grupos propostos.

Outro fator relevante que pode ser observado através desta visualização é o número de observações de cada grupo. Percebe-se a existência de dois grupos grandes, que juntos comportam mais da metade das observações. Existem ainda dois grupos intermediários e mais 3 grupos pequenos, com menos de 50 licitantes em cada.

Utilizando o K-means

O k-means é um dos algoritmos mais usados para agrupamento. Para usá-lo é necessário definir a quantidade de grupos que devem ser formados como também os critérios para que elementos sejam agrupados. Nessa análise, utilizou-se 7 grupos e esse número foi baseado no dendograma gerado pelo hclust, de forma que os elementos sejam parecidos dentro de um mesmo grupo e diferentes entre grupos.

Observando o gráfico abaixo nota-se que os grupos estão mais adequadamente definidos no k-means, de forma que os elementos de um mesmo grupo são mais parecidos com elementos do próprio grupo do que com os de outro grupo. Na comparação com a largura média da silhouette do hclust, é perceptível uma melhora de 0.35 (hclust) para 0.42 (kmeans), o que é um indício que os grupos estão melhores definidos usando o k-means.

Utilizando o DBScan

O DBScan (Ester et al. 1996) é um algoritmo de agrupamento que tem como principal diferença dos algoritmos utilizados anteriormente, o fato de que é possível obter pontos que não façam parte de nenhum grupo, considerados como ruído.

Nesse algoritmo, um ponto inicial é escolhido aleatoriamente e verifica-se se há um determinado número de pontos na vizinhança deste. Caso isso ocorra, há um grupo que contem o ponto inicial e todos os pontos da sua vizinhança.

Esse processo é repetido para todos os pontos do grupo recém encontrado com a finalidade de aumentar o número de elementos desse grupo. Quando não é mais possível encontrar pontos pertencentes a esse grupo, o algoritmo tenta criar novos grupos utilizando pontos que ainda não tenham sido agrupados.

É possível que alguns pontos não tenham o número de pontos mínimo necessário para se formar um grupo em sua vizinhança. Nesse caso, o ponto é considerado como um ponto de ruído e não pertence a nenhum grupo. Em nossa análise abaixo, os ruídos foram representados pelo grupo 1, embora não sejam formalmente um grupo.

A utilização desse algoritmo possibilitou a descoberta de 4 grupos de licitantes. Esse número de grupos é um pouco menor que o número que gerou os melhores resultados nos algoritmos anteriores. Uma análise mais detalhada sobre eles é realizada a seguir.

Os grupos gerados pelo algoritmo apresentam grande heterogeneidade internamente, o que pode indicar que a divisão realizada pelo algoritmo para encontrar os grupos não foi tão eficiente quando a realizada pelos algoritmos testados anteriormente.

O algoritmo escolhido

A partir da análise dos gráficos da silhueta e da adequação de cada técnica ao domínio analisado, foi possível concluir que a técnica que obteve os melhores resultados no cenário analisado foi o k-means.

Análise de agrupamento

A seguir observamos os 7 grupos e suas características de acordo com as variáveis analisadas.

Grupo 1 - Insaciáveis

Grupo dos licitantes que possuem contratos com aditivos acima da média, em geral são licitantes que ganham acima da média e assima contratos com valor acima da média.

Grupo 2 - Gulosos

Os integrantes desse grupo participam de muitas licitações em diferentes municípios. Em consequência disso, valor total das licitações é acima da média. Entretanto, o valor mediano mantém-se dentro do esperado.

Grupo 3 - Saudáveis

Esse grupo é o que apresenta as variáveis com valores mais próximos a média sem nenhuma variação que se sobressaia.

Grupo 4 - Gourmet

São licitantes que participam de licitações de alto valor mas que raramente ganham e quando ganham o valor de contrato é abaixo da média. Podem ser considerados os grandes perdedores da amostra analisada.

Grupo 5 - Famintos

Em geral, os licitantes desse grupo tem um porcentagem de vitórias abaixo da média. Por conta disso o valor total ganho em contratos também é abaixo da média.

Grupo 6 - Fitness

Os licitantes desse grupo participam de licitações com valores pouco acima da média e também tem uma alta porcentagem de vitórias.

Grupo 7 - Em dieta

Caracteriza os licitantes que participam de licitações com valor abaixo da média, mas que possuem alta porcentagem de vitórias com relação aos demais participantes e o valor do contrato é um pouco acima da média.

Gráfico de coordenadas paralelas

Nota-se que no grupo 3, considerado o grupos dos licitantes que mais aditivam seus contratos existe uma variação alta com relação a variável número de municípios entre os licitantes desse grupo. Em geral no grupo 5, como dito anteriormente, os valores se mantém próximo a média para todos os licitantes do grupo, tornando-se o grupo com características mais lineares. Com exceção do grupo 3, os demais grupos apresentam praticamente a mesma média de aditivos entre todos os seus componentes.